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上 节 课 我 们 介绍 了 过 拟 合 发 生 的 原因 : excessive power stochastic/deterministic 
noise 和 limited data。 并 介绍 了 解决 overfitting 的 简单 方法 。 本 节 课 ， 我 们 将 介绍 解决 
overfitting 的 另 一 种 非常 重要 的 方法 : Regularization 规 则 化 。 


一 、Regularized Hypothesis Set 
先 来 看 一 个 典型 的 overfitting 的 例子 : 





overfit 


如 图 所 示 ， 在 数据 量 不 够 大 的 情况 下 ， 如 果 我 们 使 用 一 个 高 阶 多 项 式 (图 中 红色 曲线 
所 示 ) ， 例 如 10 阶 ， 对 目标 函数 〈 蓝 色 曲线 ) 进行 拟 合 。 拟 合 曲线 波动 很 大 ， 昌 然 
in 很 小 ， 但 是 owt 很 大 ， 也 就 造成 了 过 拟 合 现 象 。 


那么 如 何 对 过 拟 合 现象 进行 修正 ， 使 hypothesis 更 接近 于 target function 呢 ?一 种 方法 
就 是 regularized fit。 


I 


‘regularized ft 


这 种 方法 得 到 的 红色 fit 曲 线 ， 要 比 overfit 的 红色 曲线 平滑 很 多 ， 更 接近 与 目标 函数 ， 它 
的 阶 数 要 更 低 一 些 。 那 么 问题 就 变 成 了 我 们 要 把 高 阶 (10 阶 ) 的 hypothesis sets 转 换 
为 低 阶 (2 阶 ) 的 hypothesis sets。 通 过 下 图 我 们 发 现 ， 不 同 阶 数 的 hypothesis 存 在 如 
下 包含 关系 : 


e idea: ‘step back from 10 to XH 
Go > HI ) Hs» Hs 


ename history: function approximation for ill-posed problems 


我 们 发 现 10 阶 多 项 式 hypothesis sets 里 包含 了 2 阶 多 项 式 hypothesis sets 的 所 有 项 ， 那 
么 在 Hio 中 加 入 一 些 限定 条 件 ， 使 它 近 似 为 有 如, 即 可 。 这 种 立 数 近似 曾 被 称 之 为 不 适 定 
问题 (ill-posed problem) 。 


如 何 从 10 阶 转换 为 2 阶 呢 ? 首先 ， 互 io 可 表示 为 : 


Hio = wo wiz + wr? 十 sz3 + :+ wiorl 
而 妃 ? 可 表示 为 : 
H; = wo + wizx 十 222 
所 以 ， 如 果 限定 条 件 是 ws 二 wa4 三 … : = wi10 三 0， 那 么 就 有 五 = 有 10。 也 就 是 





说 ， 对 于 高 阶 的 hypothesis， 为 了 防止 过 拟 合 ， 我 们 可 以 将 其 高 阶 部 分 的 权重 w 限 制 为 
0， 这 样 ， 就 相当 于 从 高 阶 的 形式 转换 为 低 阶 ， 代 波形 更 加 平滑 ， 不 容易 发 生 过 拟 合 。 


Q-th order polynomial transform for x E RR: 


sat Se 1 Re) 





+ linear regression, denote w by w 











hypothesis win Hi0: ”wo 十 WiIX 十 wzxXe 十 wax3 十 ... 十 Wiox10 
hypothesis win H2: wo 十 WiX 十 wx 
that is, 1 = 7Hio AND ‘constraint that wa = Wa =...= Wio= 0 
step back = constraint ] 





那 有 一 个 问题 ， 令 万 10 高 阶 权 重 w 为 0， 为 什么 不 直接 使 用 妃 2 呢 ? 这样 做 的 目的 是 拓 
展 我 们 的 视野 ， 为 即将 讨论 的 问题 做 准备 。 刚 刚 我 们 讨论 的 限制 是 瓦 10 高 阶 部 分 的 权 
重 w 限 制 为 0， 这 是 比较 苛刻 的 一 种 限制 。 下 面 ， 我 们 把 这 个 限制 条 件 变 得 更 宽松 一 
点 ， 即 令 任意 8 个 权重 w 为 0， 并 不 非 要 限定 ws 二 w4 一 … 二 W10 三 0， 这 个 
Looser Constraint 可 以 写成 : 

10 


D>_(wa 0)<3 

gq=0 
也 就 只 是 限定 了 w 不 为 0 的 个 数 ， 并 不 限定 必须 是 高 阶 的 vw。 这 种 hypothesis 记 为 H;， 
称 为 sparse hypothesis set， 它 与 石和 Hi0 的 关系 为 : 


五。 C H; C Hio 
。 more flexible than 2: H2 C 7312 
。|ess risky than 对 10: H> C Hi10 


Looser Constraint 对 应 的 hypothesis 应 该 更 好 解 一 些 ， 但 事实 是 sparse hypothesis set 
她 9 被 证 明 也 是 NP-hard， 求 解 非常 困难 。 所 以 ， 还 要 转换 为 另 一 种 易于 求解 的 限定 条 
件 。 


那么 ， 我 们 寻找 一 种 更 容易 求解 的 宽松 的 限定 条 件 Softer Constraint， 即 : 


10 
D>_w=|lvll <C 
q=0 


其 中 ，C 是 常数 ， 也 就 是 说 ， 所 有 的 权重 w 的 平方 和 的 大 小 不 超过 C， 我 们 把 这 种 
hypothesis sets 记 为 H(C)。 


甩 ; 与 耳 (C) 的 关系 是 ， 它 们 之 间 有 重 嫩 ， 有 交集 的 部 分 ， 但 是 没有 完全 包含 的 关系 ， 
也 不 一 定 相等 。 对 应 瓦 (C)，C 值 越 大 ， 限 定 的 范围 越 大 ， 即 越 宽 松 : 


H(0) C H(1.126) C::. C H(1126) CC H(%)= Hio 


当 C 无 限 大 的 时 候 ， 即 限定 条 件 非 常 完 松 ， 相 当 于 没有 加 上 任何 限制 ， 就 与 及 10 没 有 
什么 两 样 。 右 (COC) 称 为 regularized hypothesis set， 这 种 形式 的 限定 条 件 是 可 以 进行 求 
解 的 ， 我 们 把 求解 的 满足 限定 条 件 的 权重 w 记 为 wRgG。 接 下 来 就 要 探讨 如 何 求解 


WREG. 


二 、Weight Decay Regularization 


现在 ， 针 对 H(c)， 即 加 上 限定 条 件 ， 我 们 的 问题 变 成 : 


N 
1 
m En(w) = >》 (wzn 一 多 ) 
n=1 


(Zw—y)" (Zw—y) 


我 们 的 目的 是 计算 忆 in, (w) 的 最 小 值 ， 限 定 条 件 是 ||w?|| < C。 这 个 限定 条 件 从 几何 
角度 上 的 意思 是 ， 权 重 w 被 限定 在 半径 为 VC 的 圆 内 ， 而 球 外 的 w 都 不 符合 要 求 ， 即 便 
它 是 靠近 Ei (ww) 梯 度 为 零 的 w。 


min En(wW) = (Zw -y)7(Zw-y)stwrw<C 


下 面 用 一 张 图 来 解释 在 限定 条 件 下 ， 最 小 化 Bn, (w) 的 过 程 : 


decreasing direction: —V Ein(W), 
remember? :-) 

normal vector of w'w = C: Ww 

if ~VEn(W) and w not parallel: can 
decrease En(w) without violating 
the constraint 


at optimal solution Weec, 


一 VEn(wnse) ~ 








如 上 图 所 示 ， 假 设 在 空间 中 的 一 点 w， 根 据 梯度 下 降 算法 ，w 会 朝 着 一 Vi, 的 方向 移 
动 (图 中 蓝 色 箭头 指示 的 方向 ) ， 在 没有 限定 条 件 的 情况 下 ，w 最 终 会 取得 最 小 值 
wlin， 即 “谷底 "的 位 置 。 现 在 ， 加 上 限定 条 件 ， 即 w 被 限定 在 半径 为 VC 的 圆 内 ，w 距 
离 原 点 的 距离 不 能 超过 圆 的 半径 ， 球 如 图 中 红色 圆圈 所 示 w7w 二 C。 那 么 ， 这 种 情 
况 下 ，w 不 能 到 达 2win 的 位 置 ， 最 大 只 能 位 于 加 上 ， 沿 着 圆 的 切线 方向 移动 (图 中 绿 

箭头 指示 的 方向 ) 。 与 绿色 向 量 垂直 的 向 量 (图 中 红色 箭头 指示 的 方向 ) 是 圆 切 线 
的 法 向 量 ， 即 w 的 方向 ，w 不 能 靠近 红色 箭头 方向 移动 。 那 么 随 着 迭代 优化 过 程 ， 只 要 
一 Vin 与 Ww 点 切线 方向 不 垂直 ， 那 么 根据 向 量 知识 ， 一 Yi 一 定 在 w 点 切线 方向 上 
有 不 为 零 的 分 量 ， 即 w 点 会 继续 移动 。 只 有 当 一 yin 与 绿色 切线 垂直 ， 即 与 红色 法 向 
量 平行 的 时 候 ， 一 y Bi 在 切线 方向 上 没有 不 为 零 的 分 量 了 ， 也 就 表示 这 时 w 达 到 了 最 
优 解 的 位 置 。 


有 了 这 个 平行 的 概念 ， 我 们 就 得 到 了 获得 最 优 解 需要 满足 的 性 质 : 
2 入 
VEin (WREG ) 十 7 WRBG = 0 


上 面 公式 中 的 入 称 为 Lagrange multiplier， 是 用 来 解 有 条 件 的 最 佳 化 问题 常用 的 数学 工 
具 ， 广 是 方便 后 面 公式 推导 。 那 么 我 们 的 目标 就 变 成 了 求解 满足 上 面 公式 的 wRzc。 


之 前 我 们 推导 过 ， 线 性 回归 的 已 ;,， 的 表达 式 为 : 
1 
ee T 
Ey Fe Dn Yn ) 
计算 jj, 梯度 ， 并 代入 到 平行 条 件 中 ， 得 到 |: 
2 2 和 
(2 ZwRge 一 ZT7y) 下 Ny WREG 一 0 


这 是 一 个 线性 方程 式 ， 和 直接 得 到 wRgG 为 : 


wREG 一 ( 272G 二 AI 站 279 


上 式 中 包含 了 求 首 矩阵 的 过 程 ， 因 为 GT GZ 是 半 正 定 和 矩阵 ， 如 果 和 大 于 零 ， 那 么 
2 2 十 AT 一 定 是 正定 矩阵 ， 即 一 定 可 逆 。 另 外 提 一 下 ， 统 计 学 上 把 这 叫做 ridge 
regression， 可 以 看 成 是 linear regression 的 进 阶 版 。 


如 果 对 于 更 一 般 的 情况 ， 例 如 逻辑 回归 问题 中 ，V Bj 不 是 线性 的 ， 那 么 将 其 代入 平 
行 条 件 中 得 到 的 就 不 是 一 个 线性 方程 式 ，w RgG 不易 求 解 。 下 面 我 们 从 另 一 个 角度 来 
看 一 下 平行 等 式 : 


2 入 
V Ein (WREG) 十 WREG = 0 


已 知 V Bin 是 in 对 wREG 的 导数 , 而 甜 wREG 也 可 以 看 成 是 舍 w% pc 的 导数 。 那 么 
平行 等 式 左边 可 以 看 成 一 个 国 数 的 导数 ， 导 数 为 零 ， 即 求 该 国 数 的 最 小 值 。 也 就 是 
说 ， 问 题 转换 为 最 小 化 该 函数 : 
入 

Va (w) 三 bE; (w) 十 TY 
该 函数 中 第 二 项 就 是 限定 条 件 regularizer， 也 称 为 weight-decay regularization。 我 们 
把 这 个 函数 称 为 Augmented Error, 即 EBowg(w)。 
如 果 入 不 为 零 ， 对 应 于 加 上 了 限定 条 件 ， 若 和 等于零， 则 对 应 于 没有 任何 限定 条 件 ， 问 
题 转换 成 之 前 的 最 小 化 Bin (ww)。 


下 面 给 出 一 个 曲线 拟 合 的 例子 ， 入 取 不 同 的 值 时 ， 得 到 的 曲线 也 不 相同 : 





入 = 0.0001 入 = 0.01 A=1 
overfitting 一 一 中 一 underfitting 
philosophy: a little regularization goes a long way! | 





从 图 中 可 以 看 出 ， 当 入 = 0 时 ,发生 了 过 拟 合 ; 当 入 = 0.0001 时 ， 拟 合 的 效果 很 

好 ; 当 和 = 0.01 和 入 三 1 时 ， 发 生 了 从 拟 合 。 我 们 可 以 把 和 看 成 是 一 种 penality， 即 对 
hypothesis 复 杂 度 的 惩罚 ， 入 越 大 ，w 就 越 小 ， 对 应 于 C 值 越 小 ， 即 这 种 惩罚 越 大 ， 拟 

合 曲线 就 会 越 平 消 ， 高 阶 项 就 会 削弱 ， 容 易 发 生 从 拟 合 。 和 一 般 取 比较 小 的 值 就 能 达 


到 良好 的 拟 合 效果 ， 过 大 过 小 都 有 问题 ， 但 究竟 取 什 么 值 ， 要 根据 具体 训练 数据 和 模 
型 进行 分 析 与 调试 。 


call 十 Ww7w' weight-decay regularization: 


larger 和 
< prefer shorter W 
< effectively smaller C 


一 go with "any transform + linear model 





事实 上 ， 这 种 regularization 不 仅 可 以 用 在 多 项 式 的 hypothesis 中 ， 还 可 以 应 用 在 
logistic regression 等 其 他 hypothesis 中 ， 都 可 以 达到 防止 过 拟 合 的 效果 。 


我 们 目前 讨论 的 多 项 式 是 形 如 z, 2?, 2*,…… , 2” 的 形式 ， 若 x 的 范围 限定 在 [-1,1] 之 
间 ， 那 么 可 能 导致 "相对 于 低 阶 的 值 要 小 得 多 ， 则 其 对 于 的 w 非 常 大 ， 相 当 于 要 给 高 
阶 项 设置 很 大 的 惩罚 。 为 了 避免 出 现 这 种 数据 大 小 差别 很 大 的 情况 ， 可 以 使 用 
Legendre Polynomials 代 蔡 z, x?, z3,.…. , 2" 这 种 形式 ，Legendre Polynomials 各 项 
之 间 是 正 交 的 ， 用 它 进行 多 项 式 拟 合 的 效果 更 好 。 关 于 Legendre Polynomials 的 概念 


这 里 不 详细 介绍 ， 有 兴趣 的 童鞋 可 以 看 一 下 维基 百科 。 
二 、Regularization and VC Theory 


下 面 我 们 研究 一 下 Regularization 与 VC 理论 之 间 的 关系 。Augmented Error 表 达 式 如 
下 : 


VC Bound 表 示 为 : 
Eou(wW) < Ein(w) + ON(H) 


其 中 ww 表示 的 是 单个 hypothesis 的 复杂 度 ， 记 为 Q(w); 而 9( 万 ) 表 示 整 个 
hypothesis set 的 复杂 度 。 根 据 Augmented Error 和 VC Bound 的 表达 式 ，Q2(ww) 包 含 于 
98( 瑟 ) 之 内 ， 所 以 ， 瓦 aug (ww) 比 Bin 更 接近 于 Bwwt， 即 更 好 地 代表 Bowt，Kowg (ww) 与 
达 o 之 间 的 误差 更 小 。 


VC Bound 
Eou(W) < En(w) + Q(X) 









Augmented Error 






Euo(w) = Ein(W) + Hw Ww 





。 regularizer wTw : complexity of a single hypothesis 
。 generalization price Q(XH): complexity of a hypothesis set 
。 if AN(wW) "represents Q(XH) well, 

Eaug is a better proxy of Eout than En 





根据 VC Dimension 理 论 ， 整 个 hypothesis set 的 dvc = d 十 1， 这 是 因为 所 有 的 w 都 
考虑 了 ， 没 有 任何 限制 条 件 。 而 引入 限定 条 件 的 dyvc (H(C)) = dgrr(H, 4), 即 
有 效 的 VC dimension。 也 就 是 说 ，dyc (也 ) 比 较 大 ， 因 为 它 代表 了 整个 hypothesis 
set， 但 是 dppp (万 ; 4) 比 较 小 ， 因 为 由 于 regularized 的 影响 ， 限 定 了 w 只 取 一 小 部 
分 。 其 中 A 表 示 regularized 算 法 。 当 入 > 0 时 ， 有 : 


dgrr(H,A) < dvc 
这 些 与 实际 情况 是 相符 的 ， 比 如 对 多 项 式 拟 合 模型 ， 当 入 二 0 时 ， 所 有 的 w 都 给 予 考 


虑 ， 相 应 的 dyc 很 大 ， 容 易 发 生 过 拟 合 。 当 入 > 0 目 越 来 越 大 时 ， 很 多 w 将 被 舍弃 ， 
dgrF( 且 , 4) 减 小 ， 拟 合 曲 线 越 来 越 平滑 ， 容 易 发 生 欠 拟 合 。 


四 、General Regularizers 


那么 通用 的 Regularizers， 即 人 (ww)， 应 该 选择 什么 样 的 形式 呢 ? 一 般 地 ， 我 们 会 朝 着 
目标 函数 的 方向 进行 选取 。 有 三 种 方式 : 


。 target-dependent 
。 plausible 


。 friendly 


e target-dependent: some properties of target, if known 
。 symmetry regularizer: > [gis odd] W5 
e。 plausible: direction towards smoother or simpler 
stochastic/deterministic noise both non-smooth 
。 sparsity (L1) regularizer: > |wa| (next slide) 
e friendly: easy to optimize 
。 weight-decay (L2) regularizer: > ws 


其 实 这 三 种 方法 跟 之 前 error measure 类 似 ， 其 也 有 三 种 方法 : 


。 User-dependent 
。 plausible 


。 friendly 


regularizer 与 error measure 是 机 器 学 习 模 型 设计 中 的 重要 步骤 。 


augmented error = error Err + regularizer 0 
regularizer: target-dependent, plausible, or friendly 
ringing a bell? :-) 
error measure: user-dependent, plausible, or friendly 


接 下 来 ， 介 绍 两 种 Regularizer: L2 和 L1。L2 Regularizer 一 般 比 较 通用 ， 其 形式 如 
EE: 
Q 


QA(w) = >_ ws = |lwlle 
q=0 
这 种 形式 的 regularizer 计 算 的 是 w 的 平方 科 ， 是 凸 遂 数 ， 比 较 平 滑 ， 易 于 微分 ， 容 易 进 
行 最 优化 计算 。 


L1 Regularizer 的 表达 式 如 下 : 


Q 
= >》, lwal = jw 
q=0 


L1 计 算 的 不 是 w 的 平方 科 ， 而 是 绝对 值 和 ， 即 长 度 和 ， 也 是 凸 函数 。 已 知 w7w 二 C 
围 成 的 是 圆 形 ,而 ||wl|， = C 围 成 的 是 正方 形 ， 那 么 在 正方 形 的 四 个 顶点 处 ， 是 不 可 
微分 的 (不 像 圆 形 ， 处 处 可 微分 ) 。 根 据 之 前 介绍 的 平行 等 式 推导 过 程 ， 对 应 这 种 正 
方形 ， 它 的 解 大 都 位 于 四 个 顶点 处 (不 太 理解 ， 欢 迎 补充 赐教 ) ， 因 为 正方 形 边 界 处 
的 w 绝 对 值 都 不 为 零 ， 若 一 V Bi 不 与 其 平行 ， 那 么 w 就 会 向 顶点 处 移动 ， 顶 点 处 的 许 
多 w 分 量 为 零 ， 所 以 ，L1 Regularizer 的 解 是 稀 踊 的 ， 称 为 sparsity。 优 点 是 计算 速度 
快 。 


Eu = conat. 





lIwlli=C 


L2 Regularizer 
Q 
Q(w) = Dw? = wl 


e convex, differentiable 
everywhere 







L1 Regularizer 


ow = Do wal = wlh 


e convex, not differentiable 
everywhere 


e Sparsity in solution 





e easy to optimize 





L1 useful if needing sparse solution 





下 面 来 看 一 下 入 如 何 取 值 ， 首 先 ， 若 stochastic noise 不 同 ， 那 么 一 般 情 况 下 ， 入 取 值 有 
如 下 特点 : 


stochastic noise 


Expected Eout 





i 15 2 
Regularization Parameter, 人 


从 图 中 可 以 看 出 ，stochastic noise 越 大 ， 入 越 大 。 
另 一 种 情况 ， 不 同 的 deterministic noise ， 入 取 值 有 如 下 特点 : 


deterministic noise 


> Qs = 100 


Qf = $0 





Expected Eout 


Qr =15 


0.5 本 上 15 b 
Regularization Parameter, 罗 





从 图 中 可 以 看 出 ，deterministic noise 越 大 ，》 越 大 。 


以 上 两 种 noise 的 情况 下 ， 都 是 noise 越 大 ， 相 应 的 和 也 就 越 大 。 这 也 很 好 理解 ， 如 果 在 
开车 的 情况 下 ， 路 况 也 不 好 ， 即 noise 越 多 ， 那 么 就 越 会 踩 潭 车 ， 这 里 踩 刹 车 指 的 就 是 
regularization。 但 是 大 多 数 情况 下 ，noise 是 不 可 知 的 ， 这 种 情况 下 如 何 选 择 入 ”这 部 
分 内 容 ， 我 们 下 节 课 将 会 讨论 。 


五 、 总 结 


本 节 课 主要 介绍 了 Regularization。 首 先 ， 原 来 的 hypothesis set 加 上 一 些 限 制 条 件 ， 
就 成 了 Regularized Hypothesis Set。 加 上 限制 条 件 之 后 ， 我 们 就 可 以 把 问题 转化 为 
五 au 最 小 化 问题 ， 即 把 w 的 平方 加 进去 。 这 种 过 程 ， 实 际 上 回 降低 VC Dimension。 最 
后 ， 介 绍 regularization 是 通用 的 机 器 学 习 工 具 ， 设 计 方 法 通常 包括 target- 
dependent，plausible，friendly 等 等 。 下 节 课 将 介绍 如 何 选取 合适 的 和 来 建立 最 佳 拟 
合 模型 。 

注 明 : 


文章 中 所 有 的 图 片 均 来 自 台 湾 大 学 林 轩 田 《机 器 学 习 基石 》 课 程 


